从数据中学习的定向无环图(DAG)的组合问题最近被构成了纯连续优化问题,它通过基于矩阵指数函数的痕迹利用DAG的可区分无环表征。现有的无环特征基于以下想法:邻接矩阵的功率包含有关步行和周期的信息。在这项工作中,我们提出了一个基于log-determinant(log-det)函数的$ \ textit {根本不同的} $ acyclicity表征,该功能利用了dags的nilpotency属性。为了处理DAG的固有不对称性,我们将日志数据表征的域与$ \ textit {m-matrices} $的集合联系起来,这是与锥体定义的经典日志函数的关键区别积极的矩阵。与先前提出的无环函数相似,我们的表征也是精确且可区分的。但是,与现有特征相比,我们的对数数据函数:(1)更好地检测大周期; (2)行为更好的梯度; (3)它的运行时间在实践中的数量级更快。从优化侧,我们删除了典型的增强拉格朗日方案,并提出了Dagma($ \ textit {ocyclicity} $的M-矩阵{textIt {定向无环形图),这种方法类似于屏障方法的中心路径。 DAGMA的中心路径中的每个点都是通过我们的log-det函数正常的无约束问题的解决方案,然后我们证明在中心路径的极限下,保证解决方案是DAG。最后,我们为$ \ textit {linear} $和$ \ textit {nonlinear} $ sem提供了广泛的实验,并证明我们的方法可以达到针对最先进方法的大加速和较小的结构锤距。
translated by 谷歌翻译
我们证明了(a)具有通用近似功能的广泛的深层变量模型的可识别性,并且(b)是通常在实践中使用的变异自动编码器的解码器。与现有工作不同,我们的分析不需要弱监督,辅助信息或潜在空间中的条件。最近,研究了此类模型的可识别性。在这些作品中,主要的假设是,还可以观察到辅助变量$ u $(也称为侧面信息)。同时,几项作品从经验上观察到,这在实践中似乎并不是必需的。在这项工作中,我们通过证明具有通用近似功能的广泛生成(即无监督的)模型来解释这种行为,无需侧面信息$ u $:我们证明了整个生成模型的可识别性$ u $,仅观察数据$ x $。我们考虑的模型与实践中使用的自动编码器体系结构紧密连接,该体系结构利用了潜在空间中的混合先验和编码器中的Relu/Leaky-Relu激活。我们的主要结果是可识别性层次结构,该层次结构显着概括了先前的工作,并揭示了不同的假设如何导致可识别性的“优势”不同。例如,我们最薄弱的结果确定了(无监督的)可识别性,直到仿射转换已经改善了现有工作。众所周知,这些模型具有通用近似功能,而且它们已被广泛用于实践中来学习数据表示。
translated by 谷歌翻译
我们介绍并研究了分布的邻居晶格分解,这是有条件独立性的紧凑,非图形表示,在没有忠实的图形表示的情况下是有效的。这个想法是将变量的一组社区视为子集晶格,并将此晶格分配到凸sublattices中,每个晶格都直接编码有条件的独立关系集合。我们表明,这种分解存在于任何组成型绘画中,并且可以在高维度中有效且一致地计算出来。 {特别是,这给了一种方法来编码满足组合公理的分布所隐含的所有独立关系,该分布严格比图形方法通常假定的忠实假设弱弱。}我们还讨论了各种特殊案例,例如图形模型和投影晶格,每个晶格都有直观的解释。一路上,我们看到了这个问题与邻域回归密切相关的,该回归已在图形模型和结构方程式的背景下进行了广泛的研究。
translated by 谷歌翻译
我们研究有限混合物中学习非参数分布的问题,并在样品复杂性上建立紧密的界限,以学习此类模型中的组件分布。也就是说,我们得到了I.I.D.来自pdf $ f $ whene $$ f = \ sum_ {i = 1}^k w_i f_i,\ quad \ sum_ {i = 1}^k w_i = 1,\ quad w_i> 0 $$的样品在学习每个组件$ f_i $时。没有关于$ f_i $的任何假设,此问题是错误的。为了识别组件$ f_i $,我们假设每个$ f_i $都可以写为高斯的卷积和紧凑的密度密度$ \ nu_i $,带有$ \ text {supp {supp}(\ nu_i)\ cap \ text \ text {supp}(\ nu_j)= \ emptyset $。我们的主要结果表明,$(\ frac {1} {\ varepsilon})^{\ omega(\ log \ log \ log \ frac {1} {\ varepsilon})} $ samples $ samples是估计每个$ f_i $的样本所必需的。与参数混合物不同,难度不是源于$ k $或小重量$ w_i $的订单,并且与非参数密度估计不同,它不是源于维度,不规则性或不均匀性的诅咒。证明依赖于与高斯人的近似值的快速率,这可能是独立的。要证明这很紧,我们还提出了一种算法,该算法使用$(\ frac {1} {\ varepsilon})^{o(\ log \ log \ log \ frac {1} {\ varepsilon} {\ varepsilon}} $ sample f_i $。与基于力矩匹配和张量方法学习潜在变量模型的现有方法不同,我们的证明涉及通过正交功能对不良条件线性系统进行微妙的分析。结合了这些界限,我们得出结论,该问题的最佳样本复杂性正确在于多项式和指数之间,这在学习理论中并不常见。
translated by 谷歌翻译
通过从基因组 - 范围协会研究(GWAS)文献中众所周知的经验争论,我们研究了应用于GWA的线性混合模型(LMM)的统计性质。首先,我们研究LMMS在亲属矩阵中包含候选SNP的敏感性,这通常在实践中进行加速计算。我们的结果阐明了通过包括候选SNP所产生的错误的大小,为该技术提供了理由,以便对速度进行权衡抵御真实性。其次,我们调查混合模型如何纠正GWAS中的混淆,这被广泛接受作为传统方法LMMS的优势。我们考虑了两个混杂因素,人口分层和环境混杂因素的来源,研究了在实践中常用的不同方法如何不同地进行折衷这些两个混杂因素。
translated by 谷歌翻译
特定于上下文的贝叶斯网络(即定向的非循环图,DAG)识别变量之间的上下文相关关系,但是由非循环性要求引起的非凸性使得难以在上下文专用估计器之间共享信息(例如,使用图形生成器函数)。因此,用于推断上下文的贝叶斯网络的现有方法使得将数据集分解为副页,限制统计功率和分辨率,并防止使用多维和潜在的上下文。为了克服这一挑战,我们提出了通知的原型DAG(NOTMAD)的优化混合物。 Notmad模型上下文 - 特定于函数的网络作为一个函数的输出,它根据示例上下文而学习混合原型网络。原型网络与特定于上下文网络共同估计,不需要任何先验知识。我们将无循环约束编码为平滑的正则化损耗,其被回到混合功能;通过这种方式,Notmad在上下文的非循环图之间共享信息,使得甚至单个样本分辨率估计贝叶斯网络结构和参数。我们通过分析和实验证明了Notmad和特定于样本的网络推论的效用,包括患者特异性基因表达网络,所述患者特异性基因表达网络,所述患者对应于癌症的形态变异。
translated by 谷歌翻译
我们分析了在没有特定分布假设的常规设置中从观察数据的学习中学循环图形模型的复杂性。我们的方法是信息定理,并使用本地马尔可夫边界搜索程序,以便在基础图形模型中递归地构建祖先集。也许令人惊讶的是,我们表明,对于某些图形集合,一个简单的前向贪婪搜索算法(即没有向后修剪阶段)足以学习每个节点的马尔可夫边界。这显着提高了我们在节点的数量中显示的样本复杂性。然后应用这一点以在从文献中概括存在现有条件的新型标识性条件下学习整个图。作为独立利益的问题,我们建立了有限样本的保障,以解决从数据中恢复马尔可夫边界的问题。此外,我们将我们的结果应用于特殊情况的Polytrees,其中假设简化,并提供了多项识别的明确条件,并且在多项式时间中可以识别和可知。我们进一步说明了算法在仿真研究中易于实现的算法的性能。我们的方法是普遍的,用于无需分布假设的离散或连续分布,并且由于这种棚灯对有效地学习来自数据的定向图形模型结构所需的最小假设。
translated by 谷歌翻译
我们研究了非参数混合模型中的一致性以及回归的密切相关的混合物(也称为混合回归)模型,其中允许回归函数是非参数的,并且假定误差分布是高斯密度的卷积。我们在一般条件下构建统一的一致估计器,同时突出显示了将现有的点一致性结果扩展到均匀结果的几个疼痛点。最终的分析事实并非如此,并且在此过程中开发了几种新颖的技术工具。在混合回归的情况下,我们证明了回归函数的$ l^1 $收敛性,同时允许组件回归函数任意地相交,这带来了其他技术挑战。我们还考虑对一般(即非跨方向)非参数混合物的概括。
translated by 谷歌翻译
我们研究了在存在潜在变量存在下从数据重建因果图形模型的问题。感兴趣的主要问题是在潜在变量上恢复因果结构,同时允许一般,可能在变量之间的非线性依赖性。在许多实际问题中,原始观测之间的依赖性(例如,图像中的像素)的依赖性比某些高级潜在特征(例如概念或对象)之间的依赖性要小得多,这是感兴趣的设置。我们提供潜在表示和潜在潜在因果模型的条件可通过减少到混合甲骨文来识别。这些结果突出了学习混合模型的顺序的良好研究问题与观察到和解开的基础结构的问题之间的富裕问题之间的有趣连接。证明是建设性的,并导致几种算法用于明确重建全图形模型。我们讨论高效算法并提供说明实践中算法的实验。
translated by 谷歌翻译
Estimating the structure of directed acyclic graphs (DAGs, also known as Bayesian networks) is a challenging problem since the search space of DAGs is combinatorial and scales superexponentially with the number of nodes. Existing approaches rely on various local heuristics for enforcing the acyclicity constraint. In this paper, we introduce a fundamentally different strategy: We formulate the structure learning problem as a purely continuous optimization problem over real matrices that avoids this combinatorial constraint entirely. This is achieved by a novel characterization of acyclicity that is not only smooth but also exact. The resulting problem can be efficiently solved by standard numerical algorithms, which also makes implementation effortless. The proposed method outperforms existing ones, without imposing any structural assumptions on the graph such as bounded treewidth or in-degree. Code implementing the proposed algorithm is open-source and publicly available at https://github.com/xunzheng/notears.
translated by 谷歌翻译